home *** CD-ROM | disk | FTP | other *** search
/ Aminet 22 / Aminet 22 (1997)(GTI - Schatztruhe)[!][Dec 1997].iso / Aminet / util / misc / cookietool.lha / cookietool / cookietool.doc < prev    next >
Text File  |  1997-10-25  |  14KB  |  361 lines

  1.  
  2.  
  3.  
  4.                            CookieTool V2.2
  5.                            ===============
  6.  
  7.      A team of programs to help you maintain your cookie database:
  8.  
  9.           "CookieTool" itself eliminates duplicate entries,
  10.          sorts cookies alphabetically or by size if you wish.
  11.       "CdbSplit" extracts parts of the database to a separate file,
  12.     by keyword, by size, by number, or as groups of 'similar' cookies.
  13.  
  14.  
  15.  
  16. 0. Who needs it?
  17. ----------------
  18.  
  19. These tools are intended for users of "Cookie", "IntuiCookie" (both 
  20. available on Aminet, util/misc/), or generally for any plain text cookie 
  21. database with entries separated by "%%" lines.  They are nice for 
  22. crunching your cookie collection by a few KByte of duplicate stuff, but 
  23. also for splitting it into seperate files, for example extracting 
  24. quotations or dumping those cookies too big to be fun to read.
  25.  
  26. Note that "CookieTool" and "CdbSplit" know how to handle the database
  27. itself, but not how to update the corresponding index file (also called 
  28. 'hash file').  That means you still need "cookhash" (which should be 
  29. included with your cookie display program).
  30.  
  31.  
  32. 1. CookieTool command summary
  33. -----------------------------
  34.  
  35.     cookietool [options] <cookiefile> [logfile]
  36.  
  37. The crunched cookie database will be WRITTEN BACK to the input file (quite
  38. different from cookietool V1.x behaviour).  The deleted cookies will be
  39. written to <logfile>, if one is specified.  (Thus one could restore the
  40. original database by appending the logfile to the cookiefile again.)
  41.  
  42. options:      meaning:
  43.     -c        case-sensitive comparisons (for both deleting and sorting)
  44.     -d[0-3]   how fussy about word delimiters?
  45.               -d3: strict, compare character by character
  46.               -d2: ignore number and kind of spaces between words (DEFAULT)
  47.               -d1: treat punctuation signs as spaces, too
  48.               -d0: completely ignore punctuation signs and spaces
  49.     -a        delete cookies that are "abbreviations" of another, too
  50.     -p        passive, don't delete anything
  51.     -s        sort output
  52.     -sl        " , looking at the last line only  \  intended to
  53.     -sw        " , looking at the last word only   }- sort quotations
  54.     -s<sep>    " , starting at the last occurence /  by source
  55.               of <sep>, e.g. '-s--' or '-s...'
  56.     -ss       sort by size
  57.     -o        overwrite the input file directly (no tempfile), risky!
  58.               Use this *only* if your disk is so full that cookietool
  59.               couldn't create its tempfile.
  60.  
  61.  
  62. 2. CdbSplit command summary
  63. ---------------------------
  64.  
  65.     cdbsplit [options] <cookiefile> <hitfile>
  66.  
  67. By default, the input file will always be OVERWRITTEN by a reduced version 
  68. of the database, so that cookies are moved (not copied) to the hit file.
  69. An existing hit file will never be overwritten, but may be appended to.
  70.  
  71. options:       meaning:
  72.     -c         case-sensitive comparisons (for both keywords and groups)
  73.     -d[0-3]    how fussy about word delimiters? (see above for details)
  74.     -k<keywd>  optional keyword  \_combine these to form simple
  75.     -K<keywd>  mandatory keyword / boolean expressions
  76.     -l<l_min>  accept only cookies with <l_min> lines or more
  77.     -L<l_max>   "      "    "       "   <l_max> lines or less
  78.     -w<w_min>  accept only cookies <w_min> chars wide or more
  79.     -W<w_max>   "      "    "      <w_max> chars wide or less
  80.     -n<n_min>  start at cookie number <n_min>
  81.     -N<n_max>  stop after  "    "     <n_max>
  82.     -m<n>      find groups of cookies starting with <n> matching characters
  83.                (database must have been sorted for this to make sense!)
  84.     -x         extract only, don't modify <cookiefile>
  85.     -a         append, if <hitfile> exists (instead of failing)
  86.  
  87.  
  88. 3. Examples
  89. -----------
  90.  
  91. These examples assume that your cookie database is in a single file
  92. called "cookies" (tacky name, hah :).  Oh, and I'd suggest that you make
  93. a backup of your cookies somewhere before trying "cookietool" on them.
  94.  
  95.  
  96. 3.1. Do what "onecookie" used to do
  97. -----------------------------------
  98.  
  99. The classic "onecookie" could only delete verbatim copies of a cookie,
  100. where even two spaces instead of one would make a difference.  CookieTool
  101. can be told to behave like this, too:
  102.  
  103.   cookietool cookies -c -d3
  104.  
  105. The default settings are a bit more generous:
  106.  
  107.   cookietool cookies
  108.  
  109. might delete a few cookies more.  Upper- and lowercase letters are now
  110. considered the same, and it doesn't matter if two words are seperated by 
  111. one or several spaces, by a tab sign, by a line break, etc.  So two 
  112. copies of the same text, but formatted in different ways, will still be
  113. recognized as identical.
  114.  
  115. The question is: do you really want such copies deleted automatically, or 
  116. would you rather decide yourself which one of such *almost* identical
  117. cookies should be deleted?  This question arises even more with the real
  118. liberal settings like
  119.  
  120.   cookietool cookies -d0
  121.  
  122. which for example recognizes "Kill ugly radio. -- Frank Zappa" and
  123. "Kill ugly radio... Frank Zappa" as identical.  (Both of these two styles 
  124. of supplying sources to quotations are frequently used.)  More on that
  125. question later.
  126.  
  127.  
  128. 3.2. Deleting abbreviations
  129. ---------------------------
  130.  
  131. It occurs rather frequently that one cookie seems to be an "abbreviation"
  132. of another.  Sayings may consist of more than one sentence, but the first
  133. sentence is sometimes quoted by itself.  And quotations are sometimes
  134. written down with, sometimes without their author.  In both cases the
  135. shorter cookie may be deleted, and cookietool can do that, too (-a).
  136.  
  137. However, one should not ignore puctuation signs with this option (don't
  138. use -d1 or -d0), because that would consider "A penny saved is a penny."
  139. as an abbreviation of "A penny saved is a penny earned.", which is not
  140. desireable.  It might be a good idea to create a log file of the deleted
  141. cookies and look at least at the shortest ones among them:
  142.  
  143.   cookietool -a cookies log ; extract to "log" rather than just deleting
  144.   cookietool log -ss        ; sort the extracted cookies by size
  145.   Ed log       ; check if some are worth keeping and delete the rest
  146.   cdbsplit log cookies -a   ; put the survivors back
  147.  
  148. Using 'cdbsplit -a' without any search options is a nice way of moving
  149. cookies back into your main database.  (Note that "Type log >>cookies",
  150. "Delete log" would essentially do the same, but is risky:  If you
  151. accidentally type '>' instead of '>>', that would overwrite your main 
  152. database instead of appending to it!  Such a thing can't happen with 
  153. cdbsplit -a.)
  154.  
  155.  
  156. 3.3. Move cookies to and fro between files
  157. ------------------------------------------
  158.  
  159. Let's say you want to keep cookies which are quotations in a seperate
  160. file.  That's easy, they should be recognized by the "--" which precedes
  161. the source of the saying:
  162.  
  163.   cdbsplit cookies quotes -k--
  164.  
  165. Another example:  You might want to move all Bart Simpson quotes to a 
  166. separate "simpsons" file.  That's a little trickier, as "Bart" is a
  167. rather short keyword, which might appear as part of other words as well.
  168. Try three passes, cautious at first, then more generous to make sure you
  169. get them all:
  170.  
  171.   cdbsplit cookies simpsons -KBart -KSimpson
  172.  
  173. This collects cookies with both "Bart" and "Simpson" in them (note the 
  174. capital -K!).  I can't imagine anything going wrong here.
  175.   
  176.   cdbsplit cookies simps2 "-kBart " -d1 -c
  177.  
  178. Note how the -d1 in this second command will make "Bart!" but not 
  179. "Barton" be identified as "Bart ".  But as this keyword fails if "Bart" 
  180. appears at the very end of a cookie, you still have to collect the rest:
  181.  
  182.   cdbsplit cookies simps3 -kBart
  183.  
  184. Now look at the "simps2" and "simps3" files and check if anything went
  185. wrong with them.  In my case, I found a quotation by a guy named "Barth".  
  186. It's easy to put it back:
  187.  
  188.   cdbsplit simps3 cookies -kBarth -a
  189.  
  190. Finally, put the three hit files together:
  191.  
  192.   cdbsplit simps2 simpsons -a
  193.   cdbsplit simps3 simpsons -a
  194.                              
  195.  
  196. 3.4. Support for editing manually
  197. ---------------------------------
  198.  
  199. CdbSplit can help you collect all cookies that need reformatting (because
  200. they are too wide) in an extra file, and put them back later:
  201.  
  202.   cdbsplit -w76 cookies wide
  203.   Ed wide           ; add some line breaks
  204.   cdbsplit wide cookies -a
  205.  
  206. Now this was easy.  But cdbsplit can even help you to find groups of 
  207. "similar" cookies!  That's helpful to eliminate cookies that differ only
  208. by some typing error (e.g. 'seperate'/'separate'), something that 
  209. cookietool will *never* handle automatically.  To do this, you must sort 
  210. your database first, then tell cdbsplit how many agreeing characters make 
  211. "similar" cookies (I think 10 - 20 characters is usually a good choice):
  212.  
  213.   cookietool cookies -s -d0 -p
  214.   cdbsplit cookies temp -d0 -m20
  215.   Ed temp            ; delete some manually
  216.   cdbsplit temp cookies -a
  217.  
  218. When editing the "temp" file, you should find groups of two or more
  219. cookies with identical beginnings.  If you think they are really the same,
  220. you can delete all but one (!) of each group.  This is a tedious work,
  221. but hell, it's far easier than just sorting the database and looking
  222. for similar cookies with your eyes only! :)
  223.  
  224. Here's a more sophisticated procedure that will extract groups of cookies
  225. starting and ending with the same word (well, almost):
  226.  
  227.   cookietool cookies -s -d1 -p     ; regular sorting first
  228.   cookietool cookies -sw -d1 -p    ; *then* sort by last word
  229.   cdbsplit cookies temp -d1 -m3    ; yes, 3 matching characters will do!
  230.   Ed temp                          ; delete all but one from each group
  231.   cdbsplit temp cookies -a         ; put the others back
  232.  
  233. Applying -s-- instead of -sw in the second pass could help you find 
  234. similar sayings that are attributed to the same person.
  235.  
  236.  
  237. 3.5. Joining "good" and "bad" cookie files
  238. ------------------------------------------
  239.  
  240. Suppose you have a well maintained cookie database, without double 
  241. entries, all the cookies are formatted the way you want them, and all the
  242. authors of quotations are written down in your preferred style.  Now you
  243. find an archive with new cookies somewhere and you want to add them to 
  244. your database, but you have reason to believe that this will introduce a 
  245. lot of double entries.  Here's how I would proceed.
  246.  
  247. In the following, assume that your good cookies are in a file called 
  248. "cookies", the new cookies are in a file called "visitors".
  249.  
  250. First make sure there are no double entries left in your main file, at 
  251. least none that cookietool can find:
  252.  
  253.   cookietool cookies -d0 log
  254.  
  255. And look at the number of cookies that cookietool reported, suppose it's
  256. 4711, you'll need it later.  (B.t.w., normally this pass shouldn't delete
  257. anything, if your database is really in such good shape.  And don't worry 
  258. if it did, those cookies are in the "log" file now.  but if you want to 
  259. put them back, please do that only after this procedure is complete!)
  260.  
  261. Now append the "visitors" file, then delete all doubles from the new and
  262. larger "cookies" file:
  263.  
  264.   cdbsplit visitors cookies -a
  265.   cookietool cookies -d0
  266.  
  267. This will delete only new cookies (if any), because cookietool starts 
  268. deleting from the end of the file.  Of course, for this to work, it is
  269. essential that you assemble the files in this order (i.e. don't append
  270. "cookies" to "visitors")!
  271.  
  272. Finally you might want to move the new cookies to their own file again.
  273. That's easy, tell cdbsplit to extract all but the 4711 first:
  274.  
  275.   cdbsplit cookies visitors -a -n4712
  276.  
  277. Now you can look at "visitors" to see what you've got, edit and reformat
  278. where needed, and then finally join the two databases for good.
  279.  
  280.  
  281. 3.6. Extract all poems :)
  282. -------------------------
  283.  
  284. Would you agree that a poem is something that has at least four lines, 
  285. but doesn't use the full line width?  So let's try this:
  286.  
  287.   cdbsplit -l4 -W60 cookies poems
  288.  
  289. You should check the contents of "poems" manually now, and maybe you will 
  290. want to move some of the wider cookies back.  Not a problem:
  291.  
  292.   cdbsplit poems cookies -w51 -a
  293.  
  294.  
  295. 4. Background information
  296. -------------------------
  297.  
  298. Just like "onecookie", "cookietool" has to load the complete database into
  299. memory first.  (Tough luck for those with a 1 Meg Amiga and a 1.2 MB
  300. database :-).  But unlike "onecookie" does, the cookies aren't compared 
  301. each against all others (O(n*n) operation) but sorted first and then 
  302. compared against their neighbours only (O(n*log n) operation).  For a
  303. database of 1000 cookies, that's about 100 times faster!
  304.  
  305. Overwriting input files is done by creating a tempfile and renaming it
  306. when all else is done.  So breaking (or crashing :) the programs won't 
  307. lead to data loss.  Unless, of course, you use cookietool with the '-o'
  308. option, but I already warned you about that!  (For those who absolutely 
  309. need to know:  Breaking cookietool while it is still reading data is 
  310. safe, even with -o, because the output file won't be opened until after 
  311. all deleting and sorting is done.  But please, kids, don't try this at
  312. home!  Or better still:  Don't use -o at all.)
  313.  
  314. Note that breaking "cdbsplit" while it is appending to another file is no 
  315. good idea.  All cookies that were already copied are then present in both
  316. files, and most likely the output file even ends with an incomplete 
  317. cookie!  The same can happen without your fault, if cdbsplit encounters a 
  318. "Disk Full" error.
  319. In both cases, don't append any further data to this output file, or the
  320. first of the new cookies will be merged with that incomplete cookie, due 
  321. to the missing %% separator!  You might run "cookietool" once on the 
  322. output file, that will ensure a valid file format again, and the 
  323. incomplete cookie will be removed.
  324.  
  325.  
  326. 5. History
  327. ----------
  328.  
  329. V1.0 - 
  330. V1.3  forget them, they were all crap, too hard to use
  331.  
  332. V2.0  no more reformatting of cookies, sorry for those who miss it :'(
  333.  
  334. V2.1  fixed a bug that would unnecessarily lose data after "Disk Full"
  335.     errors
  336.  
  337. V2.2  added search for combinations of keywords and the -x option for
  338.     CdbSplit, CookieTool can now sort by size
  339.  
  340.  
  341. 6. The author
  342. -------------
  343.  
  344. Wilhelm Nöker  <wnoeker@t-online.de>
  345. Hertastr. 8, D-44388 Dortmund
  346.  
  347. Drop me an e-mail if you like these programs, or if you want to suggest
  348. some more features.
  349.  
  350.  
  351. 7. Credits
  352. ----------
  353.  
  354. CookieTool and CdbSplit were written using EdWord Pro V5.6 and the GNU C 
  355. compiler (with libnix).
  356.  
  357. Greetings to Christian Kemp (author of IntuiCookie and of the Amiga port 
  358. of SmartAss, and, last not least: maintainer of the great Amiga News 
  359. homepage at www2.vo.lu/homepages/ckemp/News).
  360.  
  361.